Introdução


O documento a seguir detalha o passo a passo da apuração da Variação da Despesa Assistencial por Beneficiário (VDA) do ano de 2025 sobre o ano de 2024. Espera-se que esse documento possa auxiliar o público a replicar o cálculo da VDA e acompanhar a evolução da mesma ao longo do ano.

A VDA é um dos principais componentes do cálculo do Índice de Reajuste de Planos Individuais (IRPI), que estabelece o teto máximo para o reajuste anual por variação de custos das mensalidades dos planos de saúde de contratação individual ou familiar. A metodologia de cálculo do IRPI e da própria VDA foi estabelecida pela Resolução Normativa - RN nº 441, de 19 de dezembro de 2018 e está detalhada no site da ANS em Espaço do Consumidor > Reajuste/Variação de mensalidade > Reajuste anual de planos individuais/familiares > Metodologia de Cálculo.

A VDA expressa a variação da despesa assistencial média por beneficiário dos contratos dos planos individuais de cobertura médico-hospitalar regulamentados pela Lei nº 9.656/1998. A VDA, para fins do cálculo do IRPI, tem como base as despesas assistenciais incorridas de janeiro a dezembro e a média de beneficiários ao longo dos 12 meses de janeiro a dezembro nos dois anos imediatamente anteriores ao ano de divulgação do índice de reajuste.

A medida de tendência central do setor de saúde suplementar é a média da VDA das operadoras ponderada pela quantidade de beneficiários do período mais recente, conforme consignada no Anexo II da RN nº 441/2018. Assim, fórmula para o cálculo da média ponderada da VDA das operadoras do setor em determinado ano é:


\[VDA_{p} = \sum_{i=1}^{n} \left[\left(\displaystyle\frac{\frac{DA_{p}}{Ben_{p}}}{\frac{DA_{p-1}}{Ben_{p-1}}} - 1\right) \times Ben_{p}\right]\div\sum_{i=1}^{n} Ben_{p}\]

Onde:
i = Operadora na base de cálculo
n = Todas as operadoras na base de cálculo
p = Período de janeiro a dezembro do ano calendário
DA = Despesa assistencial em carteira própria acumulada no período
Ben = Média mensal de beneficiários em carteira própria ao longo do período


Três conjuntos de dados do setor de saúde suplementar foram utilizados para extrair informações de despesa assistencial, quantidade de beneficiários com vínculos ativos e características das operadoras de planos de saúde. Esses conjuntos de dados podem ser acessados pelo Portal Brasileiro de Dados Abertos do Governo Federal. Os links para cada conjunto de dados utilizado neste cálculo estão disponíveis a seguir na seção de “Limpeza e Tratamento de Dados”.

# período de análise
periodo <- c(as.Date("2024-12-01"), as.Date("2025-12-01"))

# url do FTP PDA ANS
url_raiz <- "https://dadosabertos.ans.gov.br/FTP/PDA/"

Limpeza e tratamento dos dados


Operadoras


As características das operadoras são obtidas do Sistema de Cadastro de Operadoras (CADOP).

Dois conjuntos de dados estão disponíveis no Portal Brasileiro de Dados Abertos (https://dados.gov.br/dados/conjuntos-dados):

Esses conjuntos de dados incluem características como o razão social, modalidade da operadora, assim como as datas de início (data do registro da operadora junto à ANS) e fim de operação (data do descredenciamento da operadora).

Para o cálculo da VDA no IRPI selecionam-se as operadoras médico-hospitalares e são desconsideradas

  1. Operadoras que iniciaram operação entre janeiro de 2024 e dezembro de 2025.
  2. Operadoras que tiveram registro cancelado até dezembro de 2025.
  3. Operadoras com ressalvas nas demonstrações financeiras protocoladas junto à ANS referentes a 2024 ou 2025.

O código a seguir faz a leitura dos arquivos *.csv do cadastro de operadoras ativas e canceladas, filtra operadoras médico-hospitalares e identifica operadoras a serem desconsideradas na base de cálculo da VDA:

# Tabela auxiliar de cadastro das operadoras
ta.cadop <- 
  bind_rows(
    # dataset de operadoras com registro cancelado
    read.csv2(
      paste0(
        url_raiz,
        "operadoras_de_plano_de_saude_canceladas/Relatorio_cadop_canceladas.csv"
      ),
      colClasses = c(rep("character",22))
    ),
    
    # dataset de operadoras com registro ativo
    read.csv2(
      paste0(
        url_raiz,
        "operadoras_de_plano_de_saude_ativas/Relatorio_cadop.csv"
      ),
      colClasses = c(rep("character",20))
    )
  ) |>  
  # Formata as colunas relevantes
  rename_with(tolower) |> 
  mutate(
    across(starts_with("data_"), as_date),
    id_ops = as.integer(registro_operadora),
    modalidade = if_else(modalidade == 'Seguradora Especializada em Saúde', 
                         'Seguradora', 
                         modalidade),
    razao_social = str_replace_all(str_trim(razao_social), "[\r\n]", " ") 
  ) |> 
  # Filtra apenas operadoras médico-hospitalares
  filter(modalidade %in% c('Autogestão', 
                           'Cooperativa Médica', 
                           'Filantropia',
                           'Medicina de Grupo', 
                           'Seguradora')) |>  
  # Cria campos de flag
  mutate(
    # Flag de operadoras que encerraram operações no período
    lg_cancelada = ( !is.na(data_descredenciamento) 
                     & year(data_descredenciamento) <= year(periodo[2]) ), 
    # Flag de operadoras que iniciaram operações no período
    lg_nova_ops  = ( year(data_registro_ans) >= year(periodo[1]) )
  ) |>
  # Flag de ressalvas
  left_join(
    readxl::read_excel("../_inputs/Ressalvas/Ressalvas 2024-2025.xlsx") |>
      distinct(id_ops) |> 
      mutate(lg_ressalva = 1L), 
    join_by(id_ops)
  ) |> 
  mutate(lg_ressalva = ( !is.na(lg_ressalva) )) |>
  select(
    id_ops, razao_social, modalidade, 
    lg_cancelada, lg_nova_ops, lg_ressalva
  )


contagem operadoras
Total 2.655
Canceladas 1.958
Novas 34
Com ressalva 97


Despesa Assistencial

As informações das despesas incorridas na prestação de assistência médico-hospitalar são extraídas das demonstrações contábeis informadas pelas operadoras no Documento de Informações Periódicas das Operadoras de Planos de Assistência à Saúde (DIOPS).

Todas as demonstrações contábeis publicadas seguem os critérios do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela RN nº 528/2022, que dispõe sobre o plano de contas dos exercícios de 2024 e 2025.

O conjunto de dados Demonstrações Contábeis do 4º trimestre de 2025 pode ser acessado no Portal Brasileiro de Dados Abertos do Governo Federal. Este conjunto de dados detalha o saldo acumulado em reais ao final do trimestre nas contas contábeis de cada operadora.

O conjunto de dados do 4º trimestre de 2024 foi atualizado para contemplar as retificações feitas ao longo do ano por operadoras com ressalvas. Esta base atualizada acompanha a Nota Técnica que está publicada no site oficial da agência na página Portal ANS > Espaço do Consumidor > Reajuste > Individual ou Familiar > Metodologia de Cálculo

O código a seguir faz a leitura dos arquivos *.csv:

# Leitura das demonstrações contábeis
diops0 <- 
  rbind(
    read.csv2("../_inputs/DIOPS/diops_4T2024 versão 2026-03-02.csv"),
    read.csv2("../_inputs/DIOPS/diops_4T2025.csv") 
  ) |> 
  as_tibble() |> 
  rename_with(tolower) |> 
  mutate(cd_conta_contabil = as.character(cd_conta_contabil)) |> 
  
  # altera data de referência para o último mês do trimestre
  mutate(id_calendar = as_date(data) + months(2)) |> 
  
  filter(
    id_calendar %in% c(periodo[1], periodo[2]), # ano 1 e ano 2
    nchar(cd_conta_contabil) == 9,              # contas contábeis de 9 dígitos
    vl_saldo_final != 0                         # exclui linhas sem saldo final
  ) |>
  
  select(
    id_ops = reg_ans, 
    cd_conta_contabil, id_calendar, 
    vl_saldo_final
  ) |> 
  
  # filtra operadoras relevantes
  inner_join(
    select(ta.cadop, id_ops), 
    join_by(id_ops)
  )


O alvo da análise é a despesa assistencial incorrida pela operadora em carteira própria. Os valores de Despesa Assistencial em Carteira Própria correspondem à totalização dos saldos dos seguintes grupos de contas contábeis do Plano de Contas Padrão da ANS:

Conta contábil Descrição Totalização
411X1XXXX Eventos/sinistros conhecidos ou avisados de assistência à saúde médico-hospitalar (+)
411X1XX8X Corresponsabilidade Assumida (-)
31171XXXX (-) Contraprestações de corresponsabilidade cedida de assistência médico-hospitalar (+)

Dessa forma, o valor da despesa assistencial em carteira própria inclui valores de Eventos/ Sinistros conhecidos ou avisados e valores de gastos de corresponsabilidade de carteira própria cedida a terceiros (contas contábeis redutoras de receita 31171XXXX). Valores de corresponsabilidade assumida (contas contábeis de despesa 411X1XX8X) são desconsiderados, pois referem-se a despesas assistenciais incorridas em atendimento a carteira de terceiros (outras operadoras).

O código a seguir totaliza a receita e despesa assistencial por trimestre, operadora e tipo de carteira:

# Receita e despesa assistencial por trimestre, operadora e tipo de carteira
diops1 <- 
  diops0 |>  
  # filtra contas contábeis relevantes para a análise
  filter( 
    # eventos/sinistros conhecidos médico-hospitalares, incluindo 
    # corresponsabilidade assumida 
    (substr(cd_conta_contabil, 1, 3) == '411' 
     & substr(cd_conta_contabil, 5, 5) == '1')
    
    # receita de contraprestações médico-hospitalares e 
    # corresponsabilidade cedida médico-hospitalar (redutor de receita)
    | (substr(cd_conta_contabil, 1, 5) == '31111' 
       | substr(cd_conta_contabil, 1, 5) == '31171')
  ) |> 
  
  # Agrupa as contas contábeis em três categorias
  mutate(
    gr_cc = case_when(
      substr(cd_conta_contabil, 1, 1) == '4'     ~ 'eventos',
      substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita', 
      substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida',
      .default =  'EXCLUIR'), 
  ) |>
  
  # Totaliza por operadora, conta contábil e período
  summarise(
    vl_saldo_final = sum(vl_saldo_final), 
    .by = -vl_saldo_final
  ) |>  
  
  # Separa os saldos em colunas por categoria
  pivot_wider(
    names_from = gr_cc, 
    values_from = vl_saldo_final, 
    values_fill = 0
  ) |> 
  
  # identifica atributos de carteira pela conta contábil
  mutate(
    vigencia = case_when(
      substr(cd_conta_contabil, 8, 8) == '8'              ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
      substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
      .default =  'EXCLUIR'
    ), 
    
    contratacao = case_when(
      substr(cd_conta_contabil, 8, 8) == '8'          ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
      substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
      substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
      .default =  'EXCLUIR'
    ), 
    
    financiamento = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pré',
      substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós',
      .default =  'EXCLUIR'
    ), 
  ) |> 
  
  # Exclui corr assumida e inclui corr cedida na despesa (trocando o sinal)
  filter(vigencia != 'corr_assumida') |>     
  mutate(despesa = eventos - corr_cedida) |>
  
  summarise(
    receita = sum(receita), 
    despesa = sum(despesa), 
    .by = c(id_ops, vigencia, contratacao, financiamento, id_calendar)
  )


Resumo
ano Operadoras Receita (R$bn) Despesa (R$bn)
2024 642 309,7 252,6
2025 619 335,2 267,6


Filtra planos novos (posteriores à Lei) com formação de preço preestabelecida e totaliza por período, operadora e tipo de plano:

# Receita e despesa assistencial de planos novos com formação de preço pré
diops <- 
  diops1 |> 
  mutate(
    ano = as.integer(year(id_calendar)), 
    .after=contratacao
  ) |> 
  select(-id_calendar) |> 
  filter( 
    vigencia      == 'P',   # Planos novos (posteriores à Lei)
    financiamento == 'Pré', # Formação de preço preestabelecida
  ) |> 
  select(-vigencia, -financiamento) |> 
  
  # Filtra operadoras de interesse
  inner_join(select(ta.cadop, id_ops),  join_by(id_ops)) |> 
  
  # Flag de operadoras que não têm dados válidos de despesa
  mutate(
    lg_excl_despesa = sum(despesa>0) != 2, 
    .by = c(id_ops, contratacao), 
    .after=ano
  )


Resumo (R$ bilhões)
Apenas operadoras com dados de despesa nos 2 anos
ano operadoras receita despesa
Adesão
2024 440 34,2 29,1
2025 440 37,5 30,6
Empresarial
2024 502 184,8 145,0
2025 502 211,1 162,1
Individual
2024 434 56,1 45,7
2025 434 60,6 49,5
Total
2024 562 275,2 219,8
2025 562 309,1 242,2


Beneficiários (semi-aditivo)

As informações de vínculos ativos de beneficiários são obtidas através do Sistema de Informação de Beneficiários (SIB), que é atualizado mensalmente.

A base de dados do SIB referente aos anos de 2024 e 2025 pode ser acessada no Portal Brasileiro de Dados Abertos do Governo Federal, conjunto de dados Beneficiários por operadora e tipo de carteira para cálculo da VDA. Este conjunto de dados informa a quantidade de vínculos ativos de beneficiários em planos de saúde médico-hospitalar mês a mês por operadora e tipo de plano.

O código a seguir faz a leitura dos arquivos publicados no portal de dados abertos:

# Leitura da base de beneficiários
sib0 <- 
  read.csv2("../_inputs/SIB/Beneficiarios_operadora_e_carteira.csv") |> 
  as_tibble() |> 
  rename_with(tolower) |> 
  rename(
    id_ops        = cd_operadora, 
    vigencia      = vigencia_plano, 
    contratacao   = gr_contratacao, 
    financiamento = tipo_financiamento,
    benef         = nr_benef
  ) |> 
  mutate(
    id_calendar = make_date(as.integer(mes/100),
                            mes - (as.integer(mes/100)) * 100,
                            01),
    
    contratacao = case_when(
      contratacao == 'Coletivo empresarial'   ~ 'Empresarial',
      contratacao == 'Coletivo por adesão'    ~ 'Adesão',
      contratacao == 'Individual ou familiar' ~ 'Individual',
      .default = contratacao
    )
  ) |> 
  
  filter(
    # Filtra período de análise
    id_calendar > (periodo[1] - years(1)), id_calendar <= periodo[2],
    
    # Exclui zeros e nulos
    benef != 0 & !is.na(benef),

    # Filtra planos de interesse para a análise
    cobertura == "Médico-hospitalar",
    vigencia == 'P',                     # planos novos (posteriores à Lei)
    financiamento != 'Pós-estabelecido', # com formação de preço pré
    contratacao %in% c('Empresarial',
                       'Individual',
                       'Adesão')
  ) |> 
  
  # filtra operadoras médico-hospitalares
  inner_join(select(ta.cadop,id_ops), join_by(id_ops)) |> 
  
  # Totaliza por operadora, tipo de contratação e mês
  summarise(benef = sum(benef), .by = c(id_ops, contratacao, id_calendar)) |> 
  
  arrange(id_ops, contratacao, id_calendar)


Calcula a média de beneficiários no ano por operadora e tipo de contratação e exclui operadoras que não tenham uma sequência ininterrupta de beneficiários nos 24 meses:

# Calcula média de beneficiários por ano, operadora e tipo de contratação e
# filtra operadoras que têm sequência ininterrupta de 24 meses
sib <- 
  sib0 |> 
  mutate(ano = as.integer(year(id_calendar))) |> 
  select(-id_calendar) |> 
  
  # Flag de operadoras que não tiveram sequência ininterrupta de 24 meses
  mutate(
    lg_excl_benef = n()!=24, 
    .by=c(id_ops, contratacao)
  ) |> 
  
  # Calcula a média dos últimos 12 meses por operadora, contratacao e ano
  summarise(
    benefm = sum(benef, na.rm=T)/12,
    .by = c(id_ops, contratacao, ano, lg_excl_benef)
  )


Beneficiários
Totais agregados, média mensal
ano Operadoras beneficiarios
Adesão
2024 473 4.475.311
2025 473 4.420.508
Empresarial
2024 538 30.984.932
2025 538 32.451.685
Individual
2024 448 7.862.477
2025 448 7.813.073
Total
2024 594 43.322.720
2025 594 44.685.265
Nota: Apenas operadoras com sequência de beneficiários nos 24 meses



Cálculo da VDA


Despesa por Beneficiário

Esta seção gera a base de despesa assistencial e beneficiários e calcula a despesa por beneficiário.

A despesa por beneficiário é a média mensal da despesa assistencial da carteira própria de uma operadora incorrida no ano, dividida pela média de vínculos ativos de beneficiários ao longo do ano. Essa métrica representa o principal componente de custo de um plano de saúde e está expressa de forma a permitir compará-la entre operadoras por tipo de carteira e acompanhar sua evolução ao longo do tempo.

A base de cálculo da VDA considera apenas:

  • Operadoras sem ressalvas com registro ativo nos dois anos

  • Observações que apresentam valor positivo de despesa nos dois anos

  • Observações que apresentam uma sequência ininterrupta de 12 meses de beneficiários nos dois anos

O código a seguir calcula a Despesa Mensal por Beneficiário:

# Calcula a despesa mensal por beneficiário
df.vda0 <- 
  inner_join(
    diops |> 
      filter(!lg_excl_despesa) |> 
      select(-receita, -lg_excl_despesa), 
    
    sib |> 
      filter(!lg_excl_benef) |> 
      select(-lg_excl_benef), 
    
    join_by(id_ops, contratacao, ano)
  ) |> 
  arrange(id_ops, contratacao, ano) |> 
  
  # exclui operadoras invalidadas por qualquer motivo:
  inner_join(ta.cadop, join_by(id_ops)) |> 
  filter( !lg_cancelada & !lg_nova_ops & !lg_ressalva ) |> 
  select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, modalidade)) |>
  relocate(razao_social, .after = id_ops) |> 
  
  # calcula despesa mensal por beneficiário:
  mutate(
    dpb = if_else(!is.na(benefm) & benefm > 0, despesa/benefm/12, NA)
  )


Despesa mensal por beneficiário
Totais agregados, em R$ por mês
ano operadoras Despesa por
beneficiário
Adesão
2024 370 582
2025 370 610
Empresarial
2024 422 403
2025 422 430
Individual
2024 352 499
2025 352 544
Nota: Apenas operadoras com sequência de beneficiários nos
24 meses e com saldo de despesa informado nos dois anos.


Visualização gráfica da distribuição da despesa por beneficiário das operadoras.

Nota: O gráfico a seguir exclui os 5% maiores e menores valores de cada carteira para que seja possível visualizar a distribuição dos dados.


Estatísticas descritivas da despesa mensal por beneficiário das operadoras
ano mínimo q1 mediana q3 máximo média desvio iqr cv assimetria curtose
Individual
2024 4 324 445 590 61.279 684 3.268 266 478% 18,12 332,72
2025 4 355 475 653 65.810 738 3.513 298 476% 18,07 331,53
Empresarial
2024 17 180 250 337 20.971 422 1.207 157 286% 13,24 206,37
2025 17 197 266 368 18.975 447 1.199 171 268% 11,42 151,89
Adesão
2024 0 280 437 625 101.110 1.231 7.462 346 606% 12,57 162,22
2025 17 306 465 677 181.167 1.529 11.195 371 732% 13,96 204,08


VDA por operadora

A VDA de uma operadora é a variação da despesa por beneficiário desta operadora sobre o mesmo período do ano anterior, conforme a seguinte fórmula:

\[VDA_{ip} = \displaystyle\frac{\frac{DA_{ip}}{Ben_{ip}}}{\frac{DA_{i\ \left(p-1\right)}}{Ben_{i\ \left(p-1\right)}}} - 1\]

Onde:
i = Operadora na base de cálculo
p = Ano calendário anterior ao início da aplicação do IRPI
DA = Despesa assistencial em carteira própria acumulada ao fim do período
Ben = Média mensal de beneficiários em carteira própria ao longo do período


O código a seguir calcula a VDA por operadora:

# Calcula a VDA por operadora
df.vda <- 
  df.vda0 |>
  # coloca os anos em colunas
  arrange(ano, id_ops, contratacao) |> 
  mutate(ano = if_else(ano == year(periodo[1]), "ano1", "ano2")) |> 
  pivot_wider(names_from = ano,
              values_from = c(despesa, benefm, dpb)) |> 
  
  # calcula VDA
  mutate( vda = (dpb_ano2/dpb_ano1 - 1)*100 ) |> 
  
  # identifica valores extremos pelo critério BOXPLOT 1.5xIQR
  mutate(
    lg_outlier = 
      vda >= (quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T)) 
    | vda <= (quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T)),
    
    .by = contratacao
  )


Estatísticas descritivas da Variação da Despesa Assistencial por beneficiário das operadoras
contratacao n mínimo q1 mediana q3 máximo média desvio iqr cv assimetria curtose
Individual 352 −90,67 2,48 7,64 15,05 106,42 9,29 18,60 12,58 200% 0,63 8,66
Empresarial 422 −92,84 1,38 8,82 14,99 898,74 14,18 57,30 13,61 404% 11,02 149,96
Adesão 370 −88,84 −1,88 7,53 18,31 424.835,94 1.163,70 22.085,41 20,19 1.898% 19,08 363,01



Valores extremos (outliers)
Identificados pela metodologia de intervalo interquartílico (1.5 x IQR)
contratacao operadoras outliers %
inferiores
superiores
Limite outliers Limite outliers
Individual 352 37 10,5% −16,4 15 33,9 22
Empresarial 422 41 9,7% −19,0 16 35,4 25
Adesão 370 46 12,4% −32,2 12 48,6 34


VDA do setor

A metodologia de cálculo da VDA do setor para aplicação como componente do IRPI adota a VDA média ponderada pela quantidade de beneficiários no ano mais recente, após a exclusão dos valores extremos.



Base de cálculo

Gera uma base completa que reúne todas as observações dos dois anos e o cálculo da VDA para gravar.

# Base completa que reúne todas as operadoras dos dois anos
df.reunida <-  
  full_join(
    sib |> 
      mutate(
        ano = if_else(ano == year(periodo[1]), "ano1", "ano2"),
        lg_excl_benef = if_else(lg_excl_benef, 1L, 0L)
      ) |> 
      pivot_wider(
        names_from = ano, 
        values_from = benefm, 
        values_fill = 0, names_prefix = "ben_"), 
    
    diops |> 
      mutate(
        ano = if_else(ano == year(periodo[1]), "ano1", "ano2"),
        lg_excl_despesa = if_else(lg_excl_despesa, 1L, 0L)
      ) |> 
      pivot_wider(
        names_from = ano, 
        values_from = c(despesa, receita), 
        values_fill=0
      ), 
    join_by(id_ops, contratacao)
  ) |> 
  
  mutate(
    # Calcula despesa por beneficiário nos dois anos
    dpb_ano1 = if_else(despesa_ano1 > 0 & ben_ano1 > 0, despesa_ano1/ben_ano1/12, 
                       NA),
    dpb_ano2 = if_else(despesa_ano2 > 0 & ben_ano2 > 0, despesa_ano2/ben_ano2/12, 
                       NA),
  ) |> 
  
  # Inclui flags de operadoras excluídas por outros motivos
  inner_join(ta.cadop, join_by(id_ops)) |> 
  
  full_join(
    df.vda |> 
      select(id_ops, contratacao, lg_outlier, vda) |> 
      mutate(lg_outlier = if_else(lg_outlier, 1L, 0L)), 
    
    join_by(id_ops, contratacao)
  ) |> 
  
  select(
    id_ops, razao_social, modalidade, 
    contratacao, 
    starts_with('lg_'), 
    starts_with('receita'), starts_with('despesa'), starts_with('ben'), 
    everything()
  ) |> 
  
  mutate(
    # Se a variável estiver zerada, transforma em vazio
    across(receita_ano1:ben_ano2, ~na_if(.x, 0)),
    # Se o flag de exclusão estiver vazio, marca como exclusão
    across(lg_excl_benef:lg_ressalva, ~coalesce(.x, 1L)),
  ) |> 
  # Exclui observações que não tenham nem informação de despesa nem 
  # de beneficiários da base
  filter( 
    !(is.na(despesa_ano1) 
      & is.na(despesa_ano2) 
      & is.na(ben_ano1) 
      & is.na(ben_ano2)) 
  )


Representatividade de base de cálculo da VDA (após exclusões por dados incompletos, ressalva, início de operação ou cancelamento de registro) sobre as bases extraídas dos sistemas de origem.


Representatividade da amostra - Beneficiários
contratacao Beneficiários Beneficiários VDA %
Individual 7.826.067 7.198.033 92,0%
Empresarial 32.557.648 30.724.239 94,4%
Adesão 4.490.716 3.997.369 89,0%

Apêndice A: Glossário

Beneficiário: Indivíduo (pessoa física) beneficiário de cobertura de plano privado de assistência à saúde e consumidor de serviços de assistência à saúde.

Contratante: Pessoa física ou jurídica responsável pela contratação do plano privado de assistência à saúde.

Operadora: Pessoa jurídica constituída sob a modalidade de sociedade civil ou comercial, cooperativa ou entidade de autogestão, que opere produto, serviço ou contrato de plano privado de assistência à saúde.

Plano Privado de Assistência à Saúde: Prestação continuada de serviços ou cobertura de custos assistenciais a preço pré ou pós estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistência à saúde, pela faculdade de acesso e atendimento por profissionais ou serviços de saúde, livremente escolhidos, integrantes ou não de rede credenciada, contratada ou referenciada, visando a assistência médica, hospitalar e odontológica, a ser paga integral ou parcialmente às expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor.

Tipo de contratação:

  • Individual ou Familiar, oferece cobertura da atenção prestada para a livre adesão de beneficiários, pessoas naturais, com ou sem grupo familiar

  • Coletivo empresarial, quando a contratação é feita por meio de pessoa jurídica para a cobertura de pessoas a ela vinculadas por relação empregatícia ou estatutária

  • Coletivo por adesão, quando a contratação é feita por meio de pessoa jurídica de caráter profissional, classista ou setorial (e.g. conselhos profissionais, entidades de classe, sindicatos, cooperativas, etc.)

Tipo de financiamento:

  • Preestabelecido, quando o valor da contraprestação pecuniária é pré-fixado mediante negociação anual, caracterizando contrato de risco.

  • Pós-estabelecido, quando o valor da contraprestação pecuniária é estabelecido após a ocorrência dos procedimentos de assistência à saúde.



Apêndice B: Programação R

Pacotes e ambiente de programação:

## R version 4.5.2 (2025-10-31 ucrt)
## Platform: x86_64-w64-mingw32/x64
## Running under: Windows 11 x64 (build 26200)
## 
## Matrix products: default
##   LAPACK version 3.12.1
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
##  [1] gt_1.3.0        lubridate_1.9.5 forcats_1.0.1   stringr_1.6.0  
##  [5] dplyr_1.2.0     purrr_1.2.1     readr_2.2.0     tidyr_1.3.2    
##  [9] tibble_3.3.1    ggplot2_4.0.2   tidyverse_2.0.0
## 
## loaded via a namespace (and not attached):
##  [1] gld_2.6.8           gtable_0.3.6        xfun_0.56          
##  [4] bslib_0.10.0        lattice_0.22-9      tzdb_0.5.0         
##  [7] vctrs_0.7.1         tools_4.5.2         generics_0.1.4     
## [10] proxy_0.4-29        pkgconfig_2.0.3     Matrix_1.7-4       
## [13] data.table_1.18.2.1 RColorBrewer_1.1-3  S7_0.2.1           
## [16] assertthat_0.2.1    readxl_1.4.5        rootSolve_1.8.2.4  
## [19] lifecycle_1.0.5     compiler_4.5.2      farver_2.1.2       
## [22] Exact_3.3           litedown_0.9        htmltools_0.5.9    
## [25] DescTools_0.99.60   class_7.3-23        sass_0.4.10        
## [28] yaml_2.3.12         pillar_1.11.1       jquerylib_0.1.4    
## [31] MASS_7.3-65         cachem_1.1.0        boot_1.3-32        
## [34] commonmark_2.0.0    tidyselect_1.2.1    digest_0.6.39      
## [37] mvtnorm_1.3-6       stringi_1.8.7       arrow_23.0.1.1     
## [40] labeling_0.4.3      fastmap_1.2.0       grid_4.5.2         
## [43] lmom_3.2            expm_1.0-0          cli_3.6.5          
## [46] magrittr_2.0.4      e1071_1.7-17        withr_3.0.2        
## [49] scales_1.4.0        bit64_4.6.0-1       timechange_0.4.0   
## [52] httr_1.4.8          rmarkdown_2.30      bit_4.6.0          
## [55] otel_0.2.0          cellranger_1.1.0    hms_1.1.4          
## [58] evaluate_1.0.5      haven_2.5.5         knitr_1.51         
## [61] markdown_2.0        rlang_1.1.7         Rcpp_1.1.1         
## [64] glue_1.8.0          xml2_1.5.2          rstudioapi_0.18.0  
## [67] jsonlite_2.0.0      R6_2.6.1            fs_1.6.7


Programação completa em linguagem R:

# período de análise
periodo <- c(as.Date("2024-12-01"), as.Date("2025-12-01"))

# url do FTP PDA ANS
url_raiz <- "https://dadosabertos.ans.gov.br/FTP/PDA/"

# Tabela auxiliar de cadastro das operadoras
ta.cadop <- 
  bind_rows(
    # dataset de operadoras com registro cancelado
    read.csv2(
      paste0(
        url_raiz,
        "operadoras_de_plano_de_saude_canceladas/Relatorio_cadop_canceladas.csv"
      ),
      colClasses = c(rep("character",22))
    ),
    
    # dataset de operadoras com registro ativo
    read.csv2(
      paste0(
        url_raiz,
        "operadoras_de_plano_de_saude_ativas/Relatorio_cadop.csv"
      ),
      colClasses = c(rep("character",20))
    )
  ) |>  
  # Formata as colunas relevantes
  rename_with(tolower) |> 
  mutate(
    across(starts_with("data_"), as_date),
    id_ops = as.integer(registro_operadora),
    modalidade = if_else(modalidade == 'Seguradora Especializada em Saúde', 
                         'Seguradora', 
                         modalidade),
    razao_social = str_replace_all(str_trim(razao_social), "[\r\n]", " ") 
  ) |> 
  # Filtra apenas operadoras médico-hospitalares
  filter(modalidade %in% c('Autogestão', 
                           'Cooperativa Médica', 
                           'Filantropia',
                           'Medicina de Grupo', 
                           'Seguradora')) |>  
  # Cria campos de flag
  mutate(
    # Flag de operadoras que encerraram operações no período
    lg_cancelada = ( !is.na(data_descredenciamento) 
                     & year(data_descredenciamento) <= year(periodo[2]) ), 
    # Flag de operadoras que iniciaram operações no período
    lg_nova_ops  = ( year(data_registro_ans) >= year(periodo[1]) )
  ) |>
  # Flag de ressalvas
  left_join(
    readxl::read_excel("../_inputs/Ressalvas/Ressalvas 2024-2025.xlsx") |>
      distinct(id_ops) |> 
      mutate(lg_ressalva = 1L), 
    join_by(id_ops)
  ) |> 
  mutate(lg_ressalva = ( !is.na(lg_ressalva) )) |>
  select(
    id_ops, razao_social, modalidade, 
    lg_cancelada, lg_nova_ops, lg_ressalva
  )

ta.cadop |> 
  summarise(
    "Total"        = n_distinct(id_ops),
    "Canceladas"   = sum(lg_cancelada),
    "Novas"        = sum(lg_nova_ops),
    "Com ressalva" = sum(lg_ressalva)
  ) |> 
  pivot_longer(
    everything(), 
    names_to = "contagem", 
    values_to = "operadoras"
  ) |> 
  gt(locale="pt") |> sub_missing() |>
  fmt_integer("operadoras") |> 
  gtTabOptions()

# Leitura das demonstrações contábeis
diops0 <- 
  rbind(
    read.csv2("../_inputs/DIOPS/diops_4T2024 versão 2026-03-02.csv"),
    read.csv2("../_inputs/DIOPS/diops_4T2025.csv") 
  ) |> 
  as_tibble() |> 
  rename_with(tolower) |> 
  mutate(cd_conta_contabil = as.character(cd_conta_contabil)) |> 
  
  # altera data de referência para o último mês do trimestre
  mutate(id_calendar = as_date(data) + months(2)) |> 
  
  filter(
    id_calendar %in% c(periodo[1], periodo[2]), # ano 1 e ano 2
    nchar(cd_conta_contabil) == 9,              # contas contábeis de 9 dígitos
    vl_saldo_final != 0                         # exclui linhas sem saldo final
  ) |>
  
  select(
    id_ops = reg_ans, 
    cd_conta_contabil, id_calendar, 
    vl_saldo_final
  ) |> 
  
  # filtra operadoras relevantes
  inner_join(
    select(ta.cadop, id_ops), 
    join_by(id_ops)
  )

# Receita e despesa assistencial por trimestre, operadora e tipo de carteira
diops1 <- 
  diops0 |>  
  # filtra contas contábeis relevantes para a análise
  filter( 
    # eventos/sinistros conhecidos médico-hospitalares, incluindo 
    # corresponsabilidade assumida 
    (substr(cd_conta_contabil, 1, 3) == '411' 
     & substr(cd_conta_contabil, 5, 5) == '1')
    
    # receita de contraprestações médico-hospitalares e 
    # corresponsabilidade cedida médico-hospitalar (redutor de receita)
    | (substr(cd_conta_contabil, 1, 5) == '31111' 
       | substr(cd_conta_contabil, 1, 5) == '31171')
  ) |> 
  
  # Agrupa as contas contábeis em três categorias
  mutate(
    gr_cc = case_when(
      substr(cd_conta_contabil, 1, 1) == '4'     ~ 'eventos',
      substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita', 
      substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida',
      .default =  'EXCLUIR'), 
  ) |>
  
  # Totaliza por operadora, conta contábil e período
  summarise(
    vl_saldo_final = sum(vl_saldo_final), 
    .by = -vl_saldo_final
  ) |>  
  
  # Separa os saldos em colunas por categoria
  pivot_wider(
    names_from = gr_cc, 
    values_from = vl_saldo_final, 
    values_fill = 0
  ) |> 
  
  # identifica atributos de carteira pela conta contábil
  mutate(
    vigencia = case_when(
      substr(cd_conta_contabil, 8, 8) == '8'              ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
      substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
      .default =  'EXCLUIR'
    ), 
    
    contratacao = case_when(
      substr(cd_conta_contabil, 8, 8) == '8'          ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
      substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
      substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
      .default =  'EXCLUIR'
    ), 
    
    financiamento = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pré',
      substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós',
      .default =  'EXCLUIR'
    ), 
  ) |> 
  
  # Exclui corr assumida e inclui corr cedida na despesa (trocando o sinal)
  filter(vigencia != 'corr_assumida') |>     
  mutate(despesa = eventos - corr_cedida) |>
  
  summarise(
    receita = sum(receita), 
    despesa = sum(despesa), 
    .by = c(id_ops, vigencia, contratacao, financiamento, id_calendar)
  )

diops1 |> 
  mutate(ano = year(id_calendar)) |> 
  summarise(
    Operadoras = n_distinct(id_ops), 
    "Receita (R$bn)" = sum(receita, na.rm = T), 
    "Despesa (R$bn)" = sum(despesa, na.rm = T), 
    .by = ano
  ) |> 
  gt(locale = "pt") |> sub_missing() |>
  fmt_integer(Operadoras) |> 
  fmt_number(3:4, decimals=1, scale_by=1/1e9) |> 
  gtTabOptions() |> 
  tab_header(title=md("**Resumo**"))

# Receita e despesa assistencial de planos novos com formação de preço pré
diops <- 
  diops1 |> 
  mutate(
    ano = as.integer(year(id_calendar)), 
    .after=contratacao
  ) |> 
  select(-id_calendar) |> 
  filter( 
    vigencia      == 'P',   # Planos novos (posteriores à Lei)
    financiamento == 'Pré', # Formação de preço preestabelecida
  ) |> 
  select(-vigencia, -financiamento) |> 
  
  # Filtra operadoras de interesse
  inner_join(select(ta.cadop, id_ops),  join_by(id_ops)) |> 
  
  # Flag de operadoras que não têm dados válidos de despesa
  mutate(
    lg_excl_despesa = sum(despesa>0) != 2, 
    .by = c(id_ops, contratacao), 
    .after=ano
  )

rbind(
  diops |> 
    filter(!lg_excl_despesa) |> 
    summarise(
      operadoras = n_distinct(id_ops), 
              receita = sum(receita, na.rm = T), 
              despesa = sum(despesa, na.rm = T), 
              .by = c(ano, contratacao)
    ),
  
  diops |> 
    filter(!lg_excl_despesa) |> 
    summarise(
      operadoras = n_distinct(id_ops), 
              receita = sum(receita, na.rm = T), 
              despesa = sum(despesa, na.rm = T), 
              .by = c(ano)
    ) |> 
    mutate(contratacao = "Total")
) |> 
  arrange(contratacao, ano) |> group_by(contratacao) |> 
  gt(locale = "pt") |> sub_missing() |>
  fmt_integer(operadoras) |> 
  fmt_number(4:5, decimals=1, scale_by=1/1e9) |> 
  gtTabOptions() |> 
  tab_header(
    title = md("**Resumo (R$ bilhões)**"),
    subtitle = "Apenas operadoras com dados de despesa nos 2 anos"
  )

rm(diops0, diops1); gc()
# Leitura da base de beneficiários
sib0 <- 
  read.csv2("../_inputs/SIB/Beneficiarios_operadora_e_carteira.csv") |> 
  as_tibble() |> 
  rename_with(tolower) |> 
  rename(
    id_ops        = cd_operadora, 
    vigencia      = vigencia_plano, 
    contratacao   = gr_contratacao, 
    financiamento = tipo_financiamento,
    benef         = nr_benef
  ) |> 
  mutate(
    id_calendar = make_date(as.integer(mes/100),
                            mes - (as.integer(mes/100)) * 100,
                            01),
    
    contratacao = case_when(
      contratacao == 'Coletivo empresarial'   ~ 'Empresarial',
      contratacao == 'Coletivo por adesão'    ~ 'Adesão',
      contratacao == 'Individual ou familiar' ~ 'Individual',
      .default = contratacao
    )
  ) |> 
  
  filter(
    # Filtra período de análise
    id_calendar > (periodo[1] - years(1)), id_calendar <= periodo[2],
    
    # Exclui zeros e nulos
    benef != 0 & !is.na(benef),

    # Filtra planos de interesse para a análise
    cobertura == "Médico-hospitalar",
    vigencia == 'P',                     # planos novos (posteriores à Lei)
    financiamento != 'Pós-estabelecido', # com formação de preço pré
    contratacao %in% c('Empresarial',
                       'Individual',
                       'Adesão')
  ) |> 
  
  # filtra operadoras médico-hospitalares
  inner_join(select(ta.cadop,id_ops), join_by(id_ops)) |> 
  
  # Totaliza por operadora, tipo de contratação e mês
  summarise(benef = sum(benef), .by = c(id_ops, contratacao, id_calendar)) |> 
  
  arrange(id_ops, contratacao, id_calendar)

# Calcula média de beneficiários por ano, operadora e tipo de contratação e
# filtra operadoras que têm sequência ininterrupta de 24 meses
sib <- 
  sib0 |> 
  mutate(ano = as.integer(year(id_calendar))) |> 
  select(-id_calendar) |> 
  
  # Flag de operadoras que não tiveram sequência ininterrupta de 24 meses
  mutate(
    lg_excl_benef = n()!=24, 
    .by=c(id_ops, contratacao)
  ) |> 
  
  # Calcula a média dos últimos 12 meses por operadora, contratacao e ano
  summarise(
    benefm = sum(benef, na.rm=T)/12,
    .by = c(id_ops, contratacao, ano, lg_excl_benef)
  )

rbind(
  sib |> 
    filter(!lg_excl_benef) |> 
    summarise(Operadoras = n_distinct(id_ops),
              beneficiarios = sum(benefm),
              .by = c(ano, contratacao)),
  
  sib |> 
    filter(!lg_excl_benef) |> 
    summarise(Operadoras = n_distinct(id_ops),
              beneficiarios = sum(benefm),
              .by = c(ano)) |> 
    mutate(contratacao="Total")
) |> 
  arrange(contratacao, ano) |> group_by(contratacao) |> 
  gt(locale="pt") |> sub_missing() |>
  fmt_integer(3:4) |> 
  gtTabOptions() |> 
  tab_header(
    title = md("**Beneficiários**"),
    subtitle = md("*Totais agregados, média mensal*")
  ) |> 
  tab_footnote(
    "Nota: Apenas operadoras com sequência de beneficiários nos 24 meses"
  )

rm(sib0); gc()
# Calcula a despesa mensal por beneficiário
df.vda0 <- 
  inner_join(
    diops |> 
      filter(!lg_excl_despesa) |> 
      select(-receita, -lg_excl_despesa), 
    
    sib |> 
      filter(!lg_excl_benef) |> 
      select(-lg_excl_benef), 
    
    join_by(id_ops, contratacao, ano)
  ) |> 
  arrange(id_ops, contratacao, ano) |> 
  
  # exclui operadoras invalidadas por qualquer motivo:
  inner_join(ta.cadop, join_by(id_ops)) |> 
  filter( !lg_cancelada & !lg_nova_ops & !lg_ressalva ) |> 
  select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, modalidade)) |>
  relocate(razao_social, .after = id_ops) |> 
  
  # calcula despesa mensal por beneficiário:
  mutate(
    dpb = if_else(!is.na(benefm) & benefm > 0, despesa/benefm/12, NA)
  )

df.vda0 |> 
  summarise(
    operadoras = n_distinct(id_ops),
    dpb = sum(despesa)/sum(benefm)/12,
    .by = c(ano, contratacao)
  ) |> 
  arrange(contratacao, ano) |> group_by(contratacao) |> 
  gt(locale="pt") |> sub_missing() |>
  fmt_integer(3:4) |> 
  gtTabOptions() |> 
  cols_label(
    dpb = "Despesa por<br>beneficiário",
    .fn = md
  ) |>
  tab_header(
    title = md("**Despesa mensal por beneficiário**"),
    subtitle = md("*Totais agregados, em R$ por mês*")
  ) |> 
  tab_footnote(md(paste0(
    "Nota: Apenas operadoras com sequência de beneficiários nos<br>",
    "24 meses e com saldo de despesa informado nos dois anos."
  ))
  )

df.vda0 |> 
  mutate(
    lg_outlier = (dpb > quantile(dpb,0.95)) | (dpb < quantile(dpb,0.05)),
    .by = c(ano, contratacao)
  ) |>
  mutate(
    ano = as.factor(ano),
    contratacao = factor(contratacao, levels=c("Individual",
                                               "Empresarial",
                                               "Adesão"))
  ) |> 
  filter( !lg_outlier ) |>
  ggplot(aes(x=dpb, fill=ano, color=ano, weight=benefm)) + 
  facet_wrap(~contratacao, ncol = 1, scales="free_y") +
  geom_density(alpha=.4, adjust=.5) +
  scale_color_brewer(palette="Set1") +
  scale_fill_brewer(palette="Set1") +
  scale_y_continuous(expand = expansion(mult = c(0,0.1))) +
  scale_x_continuous(
    expand = expansion(mult = c(0,0)), 
    breaks = scales::breaks_width(100)
  ) +
  theme(
    legend.position = "top",
        panel.spacing = unit(0.02, units = "npc"),
        panel.grid.major.x = element_line(linetype = "dashed")
  ) +
  labs(
    title = "Distribuição Ponderada da Despesa Mensal por Beneficiário",
    subtitle="Frequência ponderada pela quantidade de beneficiários da operadora.",
    caption = paste0(
      "Notas:\n",
      "Exclui os 5% maiores e menores valores de cada carteira.\n",
      "Estimativa Gaussiana de densidade por Kernel para função de densidade ",
      "de probabilidade."
    ),
    x = "Despesa mensal por beneficiário (R$/mês)",
    y = "Densidade"
  )

df.vda0 |> 
  summarise(
    mínimo = min(dpb),
    q1 = quantile(dpb,0.25,names = F),
    mediana = median(dpb),
    q3 = quantile(dpb,0.75,names = F),
    máximo = max(dpb),
    média = mean(dpb),
    desvio = sd(dpb),
    iqr = IQR(dpb),
    cv = sd(dpb)/`média`,
    assimetria = DescTools::Skew(dpb),
    curtose    = DescTools::Kurt(dpb),
    .by = c(contratacao, ano)
  ) |> 
  arrange(desc(contratacao), ano)|> group_by(contratacao) |> 
  gt(locale="pt") |> sub_missing() |>
  fmt_number(3:10, decimals=0) |> fmt_percent(cv, decimals=0) |> 
  fmt_number(c(assimetria, curtose), decimals=2) |> 
  gtTabOptions() |> 
  tab_header(
    title = md(paste0(
      "**Estatísticas descritivas da despesa mensal por beneficiário das ",
      "operadoras**"
    ))
  )

# Calcula a VDA por operadora
df.vda <- 
  df.vda0 |>
  # coloca os anos em colunas
  arrange(ano, id_ops, contratacao) |> 
  mutate(ano = if_else(ano == year(periodo[1]), "ano1", "ano2")) |> 
  pivot_wider(names_from = ano,
              values_from = c(despesa, benefm, dpb)) |> 
  
  # calcula VDA
  mutate( vda = (dpb_ano2/dpb_ano1 - 1)*100 ) |> 
  
  # identifica valores extremos pelo critério BOXPLOT 1.5xIQR
  mutate(
    lg_outlier = 
      vda >= (quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T)) 
    | vda <= (quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T)),
    
    .by = contratacao
  )

df.vda |> 
  filter(!is.na(vda)) |> 
  summarise(
    n       = n_distinct(id_ops),
    mínimo  = min(vda),
    q1      = quantile(vda,0.25, names = F),
    mediana = median(vda),
    q3      = quantile(vda,0.75, names = F),
    máximo  = max(vda),
    média   = mean(vda),
    desvio  = sd(vda),
    iqr     = IQR(vda),
    cv      = sd(vda)/`média`,
    assimetria = DescTools::Skew(vda),
    curtose    = DescTools::Kurt(vda),
    .by = contratacao
  ) |>
  arrange(desc(contratacao)) |> 
  gt(locale="pt") |> sub_missing() |>
  fmt_number(c(3:10,assimetria,curtose), decimals=2) |> 
  fmt_percent(cv, decimals=0) |> 
  gtTabOptions() |> 
  tab_header(
    title = md(paste0(
      "**Estatísticas descritivas da Variação da Despesa Assistencial por ",
      "beneficiário das operadoras**"
    ))
  )

df.plt <- 
  df.vda |> 
  filter(!is.na(vda)) |> 
  mutate(n = n(), .by = contratacao) |> 
  mutate(
    outlier.color = if_else(lg_outlier, "red", NA),
    contratacao = factor(contratacao, 
                         levels = c("Individual","Empresarial","Adesão"))
  ) |> 
  arrange(contratacao, id_ops)

contratacao_n <- 
  df.plt |> 
  summarise(n=n(), .by = contratacao) |> 
  mutate(label=paste0(contratacao," (",n," operadoras)")) |> 
  select(-n) 
contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)

df.plt |> 
  ggplot(aes(x=vda, y=contratacao, fill=contratacao)) +
  geom_boxplot(
    alpha=.5, show.legend=F, outlier.colour=NA, staplewidth=.5, na.rm = T
  ) +
  geom_jitter(color = df.plt$outlier.color, width = .3, alpha=.4, na.rm = T) +
  facet_wrap(
    ~contratacao, ncol = 1, scales = "free", 
    labeller = as_labeller(contratacao_n)
  ) +
  scale_fill_brewer(palette="Dark2", direction=-1) +
  scale_x_continuous(
    labels = scales::label_number(big.mark = ".", decimal.mark = ",")
  ) +
  theme(
    legend.position = "none",
    axis.text.y = element_blank(),
    panel.grid.major.x = element_line(linetype = "dashed")
  ) +
  labs(
    title = "Boxplot da Variação da Despesa por Beneficiário (VDA) das Operadoras",
    subtitle = "Valores extremos (outliers) em vermelho",
    caption = "Fonte: ANS/DIOPS, ANS/SIB",
    x=NULL, y="VDA (%)"
  )

df.vda |>
  filter(!is.na(vda)) |> 
  mutate(
    lim.sup = quantile(vda,0.75, na.rm=T) + 1.5*IQR(vda, na.rm=T),
    lim.inf = quantile(vda,0.25, na.rm=T) - 1.5*IQR(vda, na.rm=T),
    .by = contratacao
  ) |> 
  summarise(
    operadoras = n(),
    outliers = sum(vda>lim.sup | vda<lim.inf),
    pct = outliers/operadoras,
    n.inf = sum(vda<lim.inf, na.rm = T),
    n.sup = sum(vda>lim.sup, na.rm = T),
    .by = c(contratacao, lim.inf, lim.sup)
  ) |> 
  select(contratacao, operadoras:pct, ends_with(".inf"), everything()) |> 
  arrange(desc(contratacao)) |> 
  gt(locale="pt") |> sub_missing() |>
  tab_spanner(label = "inferiores", columns = ends_with(".inf")) |> 
  tab_spanner(label = "superiores", columns = ends_with(".sup")) |> 
  cols_label(
    starts_with("lim.") ~ "Limite",
    starts_with("n.")   ~ "outliers",
    pct = "%"
  ) |> 
  fmt_percent(pct, decimals=1) |> 
  fmt_number(starts_with("lim."), decimals = 1) |> 
  gtTabOptions() |> 
  tab_header(
    title = md("**Valores extremos (outliers)**"),
    subtitle = paste0(
      "Identificados pela metodologia de intervalo interquartílico",
      " (1.5 x IQR)"
    )
  )

df.plt <- 
  df.vda |> 
  filter(!is.na(lg_outlier) & !lg_outlier) |> 
  mutate(
    contratacao = factor(contratacao, levels=c("Individual",
                                               "Empresarial",
                                               "Adesão"))
  ) 

contratacao_n <- 
  df.plt |> 
  summarise(n=n(), .by = contratacao) |> 
  mutate(label=paste0(contratacao," (n=",n," operadoras)")) |> 
  select(-n) 

contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)

mediaP <- 
  df.plt |> 
  summarise(gr.mediaP = weighted.mean(vda, w=benefm_ano2), .by=contratacao) |> 
  mutate(benefm_ano2 = .15)

df.plt |> 
  ggplot(aes(x=vda, fill=contratacao, color=contratacao, weight=benefm_ano2)) +
  geom_histogram(aes(y=after_stat(density)), alpha=.5, binwidth=1) +
  geom_vline(data=mediaP, aes(xintercept=gr.mediaP), color="black") +
  geom_text(
    data = mediaP, 
    aes(
      x = gr.mediaP, y = benefm_ano2, 
      label=paste0("Média ponderada: ",
                   scales::number(gr.mediaP, accuracy=.01),
                   "%")
    ),
    nudge_x = 1, color = "black", size=3, hjust=0
  ) +
  facet_wrap(
    ~contratacao, ncol = 1, scales="free_y", 
    labeller = as_labeller(contratacao_n)
  ) +
  scale_color_brewer(palette="Dark2", direction=-1) +
  scale_fill_brewer(palette="Dark2", direction=-1) +
  scale_x_continuous(
    expand = expansion(mult=c(0.01,0.01)),
    breaks=scales::breaks_width(10)
  ) +
  scale_y_continuous(expand = expansion(mult = c(0,.1))) +
  
  theme(
    legend.position = "none",
    panel.grid.major = element_line(linetype="dashed")
  ) +
  labs(
    title = paste0(
      "Histograma da variação da despesa por beneficiário (VDA) das operadoras"
    ),
    subtitle = paste0(
      "Frequência ponderada pela quantidade de beneficiários. ",
      "Intervalos de 1 ponto percentual. "
    ),
    caption = paste0(
      "Fonte: ANS/DIOPS, ANS/SIB\n",
      "Notas: Exclui valores extremos pela metodologia de intervalo ",
      "interquartílico (boxplot)."
    ),
    y = "Densidade",
    x = "VDA (%) - intervalos: 1 pt percentual"
  ) 

rm(df.plt, mediaP, contratacao_n, df.vda0); gc()
# GERA O CADOP NOVAMENTE COM NOMES DE OPERADORAS APÓS TRATAMENTO e 
# "LG_" ALTERADO PARA 1/0
ta.cadop <- 
  left_join(
    ta.cadop |> select(-razao_social),
    arrow::read_parquet("../_inputs/vw_cadop.parquet") |> 
      select(id_ops, razao_social), 
    join_by(id_ops)
  ) |> 
  mutate(across(starts_with("lg_"), ~if_else(.x, 1L, 0L)))
# Base completa que reúne todas as operadoras dos dois anos
df.reunida <-  
  full_join(
    sib |> 
      mutate(
        ano = if_else(ano == year(periodo[1]), "ano1", "ano2"),
        lg_excl_benef = if_else(lg_excl_benef, 1L, 0L)
      ) |> 
      pivot_wider(
        names_from = ano, 
        values_from = benefm, 
        values_fill = 0, names_prefix = "ben_"), 
    
    diops |> 
      mutate(
        ano = if_else(ano == year(periodo[1]), "ano1", "ano2"),
        lg_excl_despesa = if_else(lg_excl_despesa, 1L, 0L)
      ) |> 
      pivot_wider(
        names_from = ano, 
        values_from = c(despesa, receita), 
        values_fill=0
      ), 
    join_by(id_ops, contratacao)
  ) |> 
  
  mutate(
    # Calcula despesa por beneficiário nos dois anos
    dpb_ano1 = if_else(despesa_ano1 > 0 & ben_ano1 > 0, despesa_ano1/ben_ano1/12, 
                       NA),
    dpb_ano2 = if_else(despesa_ano2 > 0 & ben_ano2 > 0, despesa_ano2/ben_ano2/12, 
                       NA),
  ) |> 
  
  # Inclui flags de operadoras excluídas por outros motivos
  inner_join(ta.cadop, join_by(id_ops)) |> 
  
  full_join(
    df.vda |> 
      select(id_ops, contratacao, lg_outlier, vda) |> 
      mutate(lg_outlier = if_else(lg_outlier, 1L, 0L)), 
    
    join_by(id_ops, contratacao)
  ) |> 
  
  select(
    id_ops, razao_social, modalidade, 
    contratacao, 
    starts_with('lg_'), 
    starts_with('receita'), starts_with('despesa'), starts_with('ben'), 
    everything()
  ) |> 
  
  mutate(
    # Se a variável estiver zerada, transforma em vazio
    across(receita_ano1:ben_ano2, ~na_if(.x, 0)),
    # Se o flag de exclusão estiver vazio, marca como exclusão
    across(lg_excl_benef:lg_ressalva, ~coalesce(.x, 1L)),
  ) |> 
  # Exclui observações que não tenham nem informação de despesa nem 
  # de beneficiários da base
  filter( 
    !(is.na(despesa_ano1) 
      & is.na(despesa_ano2) 
      & is.na(ben_ano1) 
      & is.na(ben_ano2)) 
  )

df.reunida |> 
  summarise(
    "% Beneficiários" = sum(ben_ano2[!is.na(vda)])/sum(ben_ano2, na.rm = T),
    "% Operadoras (SIB)" = sum(!is.na(vda))/sum(!is.na(ben_ano2)),
    "% Despesa" = sum(despesa_ano2[!is.na(vda)])/sum(despesa_ano2, na.rm = T),
    "% Operadoras (DIOPS)" = sum(!is.na(vda))/sum(!is.na(despesa_ano2)),
    .by = contratacao
  ) |> 
  pivot_longer(cols = 2:5, values_to = "percentual", names_to = 'Metrica') |> 
  mutate(Metrica = factor(Metrica, levels=c("% Beneficiários","% Operadoras (SIB)",
                                            "% Despesa", "% Operadoras (DIOPS)"))) |> 
  ggplot(aes(x = contratacao, y=percentual)) +
  geom_col(fill = "slategray4",width=.75) +
  geom_text(aes(label = scales::percent(percentual, accuracy = .1), vjust = 2), 
            position = position_dodge(1), size=3, color = "white") +
  scale_y_continuous(breaks=NULL, expand = expansion(mult = c(0,0)),
                     limits = c(0,1)) +
  theme(panel.grid.major.x = element_blank(),
        axis.text=element_text(size=8)) +
  labs(x=NULL, y=NULL, 
       title = "Representatividade da amostra",
       subtitle = "% da base original") +
  facet_wrap(Metrica ~ ., nrow = 2)

df.reunida |> 
  summarise(
    Beneficiários = sum(ben_ano2, na.rm = T),
    "Beneficiários VDA" = sum(ben_ano2[!is.na(vda)], na.rm = T),
    "%" = `Beneficiários VDA`/`Beneficiários`,
    .by = contratacao
  ) |> 
  arrange(desc(contratacao)) |>
  gt(locale="pt") |> sub_missing() |>
  fmt_integer(2:3) |> fmt_percent(4, decimals=1) |> 
  gtTabOptions() |> 
  tab_header(title = md("**Representatividade da amostra - Beneficiários**"))

rm(df.vda)
dfs <- ls()[sapply(mget(ls(), .GlobalEnv), is.data.frame)]
for (df in dfs) {
  get(df) |>
    mutate(across(where(is.factor), ~ enc2utf8(as.character(.x)))) |>
    mutate(across(where(is.character), ~ enc2utf8(as.character(.x)))) |>
    write.csv2(
      str_c(c("../_outputs_IRPI/_basesR/", df, ".csv"), sep = "", collapse = ""),
      row.names=FALSE, fileEncoding="UTF-8", na=""
    )
}
remove(df, dfs)